Uni-Mol是由深势科技于2022年5月发布的一款基于分子三维结构的通用分子表征学习框架,论文被机器学习顶会ICLR 2023接收。Uni-Mol 性能优越、模型泛化能力强,在小分子性质预测、蛋白靶点预测和蛋白-配体复合物构象预测等任务上都超越之前方法。Uni-Mol被应用于深势科技的多个产品中,也获得了大量学界和业界研究人员的广泛关注。同时,我们成功把Uni-Mol应用在了例如材料设计等更多领域,并取得了优异成果。最近,我们对Uni-Mol的模型框架进行了大幅升级,推出了Uni-Mol+,并在国际权威学术竞赛OGB-LSC的量子化学性质预测上获得了榜首。我们会在本文详细介绍这些内容,并在Bohrium®科学计算云平台上提供了Uni-Mol使用案例。Uni-Mol 论文:https://openreview.net/forum?id=6K2RM6wVqKu
Uni-Mol+ 预印论文:https://github.com/dptech-corp/Uni-Mol/blob/main/unimol_plus/paper/unimol_plus_preprint.pdf
开源代码:https://github.com/dptech-corp/Uni-Mol
Uni-Mol 在各类任务上都表现优异,超越之前的最好方法。图中内部灰色区域为之前的最好方法的效果,外部多种颜色区域描述的是是Uni-Mol在多种任务上超出之前最好方法的百分比。
Uni-Mol+: 单模型独领风骚,
轻松碾压暴力融合方案
OGB-LSC (Open Graph Benchmark, Large Scale Challenge) 是一项由斯坦福大学发起的学术竞赛,旨在评估机器学习在大规模图数据上的表现。该竞赛首次在KDD CUP 2021上举办,吸引了来自DeepMind、微软、NVIDIA、UCLA等顶尖企业和高校的500多个参赛队伍,备受业界关注。近年来,越来越多的新型图机器学习模型也加入到这个比赛中,以证明自己的模型性能。可以说,OGB-LSC已成为公认的检验图机器学习模型性能的最佳试金石,类似于ImageNet在图像领域的地位。
最近,深势科技推出了Uni-Mol+,这一新模型进一步增强了性能,同时还在OGB-LSC的量子化学性质预测任务上夺得了冠军。值得一提的是,Uni-Mol+仅使用了单个模型,没有使用任何额外的提分技巧。相比之下,之前的冠军方法不仅融合了100多个模型,还额外把验证数据集用于模型训练。从这点来看,Uni-Mol+的模型能力非常强大。
相较于之前的方法,Uni-Mol+ 在整体框架、模型结构和训练策略等方面都进行了创新。在整体框架方面,Uni-Mol+ 基于低成本的方法如RDKit/Openbabel生成初始构象,并通过迭代优化这些构象,使其逼近 DFT 方法得到的高精度稳态构象。这样一来,可以通过基于模型优化后的构象来获得更精确的量子化学性质预测结果。在模型结构方面,Uni-Mol+ 进一步加强了 Uni-Mol 的双分支 Transformer 结构,以更好地捕捉三维空间的信息。而在训练策略方面,Uni-Mol+ 提出了一种新的方法,即线性轨迹注入,可以更有效地学习 DFT 构象的优化。关于这些细节可以参考我们的开源代码和论文。Uni-Mol Universe:
更多的应用场景QSAR是定量构效关系(Quantitative Structure-Activity Relationship)的缩写,是一种基于化合物结构预测化合物的生物活性和生化性质的计算方法。该方法通过将分子结构与其物理、化学性质及生物活性相关联,然后构建一个模型,以期该模型可以预测新的化合物的生物活性。QSAR在药物设计、环境毒理学和农药研究等领域中得到广泛应用。
Uni-Mol based Auto-QSAR (Uni-QSAR) 是一套基于Uni-Mol模型开发的自动化分子属性预测工具,可供专业领域相关人员使用。我们对目前主流的QSAR工具在TDC ADMET Group Benchmark上的测评结果进行了比较。TDC(Therapeutics Data Commons)是哈佛医学院主导开发的一个基准平台,其中ADMET包含了药物小分子的吸收、分布、代谢、排泄和毒性五个方面的指标。这些因素对药物的疗效和安全性有着至关重要的影响。在药物研发过程中,需要对药物的ADMET特性进行评估和优化,以提高药物的成功率,减少不良反应的发生。Uni-QSAR在这些任务上表现出了非常优异的效果。通过结合Uni-Mol和高效的自动化工作流,用户不需要关注模型细节,无需调参,即可自动化地进行特征构造和筛选。同时,Uni-QSAR也考虑到了样本不平衡性和预测任务类型的多样化(分类、回归、多任务学习、缺失值训练等等),用户只需要关注自己的任务本身。
Uni-QSAR的内测版本已经成功地应用于国际知名的快速消费品牌Top3之一,表现出了优秀的预测能力。在多个数据库中,预测的准确性都有明显提升,超过了其他方案。该项目已经完成了首轮交付,并且正在探索未来的合作空间。同时,Uni-QSAR也即将上线Hermite®药物计算设计平台,敬请期待。
2. Uni-Mol for Materials
Uni-Mol在材料领域也积累了不少的应用和案例,以下我们会选取MOF和OLED两个经典案例分别阐释Uni-Mol的通用性和预测能力的扩展。MOF材料是一种由金属离子或者簇合物和有机配体组成的多孔晶体材料,对MOF材料的气体吸附研究具有重要的理论和实际意义,例如,可以用于环境污染控制、能源储存和转换、化学催化等领域。基于Uni-Mol,我们设计训练了一个跨体系的模型Uni-MOF,可以对不同的气体(甚至未知的气体)、在不同的环境下面(温度、压强等)进行预测,其结果也大幅超越了之前单体系模型。这种建模思路也非常契合目前大火的ChatGPT,可以认为我们是在MOF吸附领域实现了大一统模型,具体细节可以关注我们即将发布的论文。
我们也把Uni-Mol成功拓展到OLED Ir(III) 体系的大规模虚拟筛选上面,用于搜索性能更好的OLED发光材料。OLED Ir(III)体系是一种基于有机发光二极管(OLED)技术的发光材料体系,其中使用了含铱(Ir)的荧光材料。这种体系具有高效、低功率消耗、高亮度和高稳定性等优点,因此在电子显示领域有广泛的应用。其中,Ir(III)配合物材料具有较高的荧光效率和发光寿命,可以用于制备高效的红、绿、蓝光发射器件。OLED Ir(III)体系在智能手机、平板电脑、电视、汽车仪表盘等领域都有着广泛的应用前景。通过利用Uni-Mol强大的预测能力,我们可以极大地降低额外的计算成本,同时高通量的筛选迭代也能够进一步提高模型的预测效果(如下图左图所示)。这种大模型训练和QM小规模计算相互迭代的思路也将成为材料研发的一种新型范式。从下图右图所示的结果可以看出,Uni-Mol 也满足了OLED材料的筛选基本要求,例如需要光色尽可能纯和plqy尽可能大。更多细节,请参阅我们在 ChemRxiv 上的预印本文章:https://chemrxiv.org/engage/chemrxiv/article-details/6412d142aad2a62ca1d86505。
除了MOF和OLED,Uni-Mol还可应用于更多的材料设计任务。由于篇幅所限,无法一一描述,期待不同背景的研究者与我们一起探索Uni-Mol的潜力。
Uni-Mol讲解教程及
在线Notebook 体验
关于Uni-Mol详细的原理讲解,可以关注青年科学论坛上的报告(报告详见:https://www.bilibili.com/video/BV1Kb411d7fd/?vd_source=c8f4712b9892a47ee66136a66142861b),报告中使用深势科技推出的科学计算平台上的Bohrium Notebook展示了如何将Uni-Mol快速地应用在分子性质预测的任务上。在Bohrium Notebook 上,我们准备了一系列基于Uni-Mol的封装好的软件库,与开源版本不同的是,这些小工具和软件包更加适配于应用层,环境和软件包都是内置安装好的,同时接口也进行了二次开发,可扩展性更高。用户只需要关注其具体的数据和应用。同时我们也持续收集用户的反馈,进行开发迭代。大家可以点击下面的链接直接进行体验测试:https://bohrium.dp.tech/notebook/fffab22768fb4bfdba10578d7de174b5,Bohrium Notebook可以自动地加载运行环境,通过几行代码即可对于自己的数据任务进行训练、预测,生成自己的属性预测工作流。
https://bohrium.dp.tech/notebook/0369c15de1e14300b1423006d17a74d4,Bohrium Notebook目前仅展示了对于CASF-2016的docking结果,大家可以自由选取靶点和对应的配体分子,然后进行docking,后续会开放更多的功能。
Uni-Mol+展现出的优异性能展现了其在AI4S领域中的巨大潜力,深势科技正在将Uni-Mol+与产品功能深度融合,以用户触手可及的交互形式,赋能药物设计、材料设计等相关领域。
我们也正在进一步改进和迭代下一代Uni-Mol,非常欢迎感兴趣的伙伴加入我们,共同建设新一代AI4S领域的基础设施。关于Bohrium®
Bohrium®是深势科技打造的微尺度科学计算云平台,深度优化第一性原理计算、分子动力学等微尺度科学计算算法与软件,提供海量高性能算力与高效便捷的计算模拟环境。Bohrium®致力于打造团队协作式的科研平台,以赋能微尺度科学研究与工业设计。
通过对从理论到实践、从需求到解决方案的不断优化和理解,Bohrium®希望成为最方便老师教学的平台、最方便学者科研的平台,让教师从此有更多精力专注于教学,让学者从此有更多精力专注于科研,解放科学家们的生产力。
Bohrium®官方网站:https://bohrium.dp.tech/如有相关问题,欢迎垂询bohrium@dp.tech体验深势科技是“AI for Science”科学研究范式的引领者和践行者,致力于运用人工智能和分子模拟算法,结合先进计算手段求解重要科学问题,为人类文明最基础的生物医药、能源、材料和信息科学与工程研究打造新一代微尺度工业设计和仿真平台。
我们开创性地提出了「多尺度建模+机器学习+高性能计算」的革命性科学研究新范式,并推出了Bohrium®微尺度科学计算云平台、Hermite®药物计算设计平台等微尺度工业设计基础设施,颠覆了现有研发模式,打造“计算引导实验、实验优化设计”的全新范式,为药物、材料领域带来极具突破性的计算模拟及设计工具。深势科技是国家高新技术企业、北京市“专精特新”中小企业,总部位于北京,并在上海、深圳、海口等城市布局研发中心。科研技术团队由中国科学院院士领衔,汇集了超百位数学、物理、化学、生物、材料、计算机等多个领域的优秀青年科学家和工程师,其中公司的博士及博士后占比超过35%。核心成员获得过2020年全球计算机高性能计算领域的最高奖项“戈登贝尔奖”,相关工作当选2020年中国十大科技进展和全球AI领域十大技术突破。